Workshop AI ieni

Hoe werkt de lerende AI?

Waarschijnlijk heb je gemerkt dat bij hexapawn speler 2 altijd wint als deze perfect speelt, ongeacht wat speler 1 doet. Perfect spelen gaat niet vanzelf. Dat moet je leren. Hoe werkt nu de lerende AI?

Q-learning

De lerende AI gebruikt Q-learning om perfect te leren spelen. De "Q" staat voor "quality" oftewel kwaliteit. De AI is op zoek naar de zet met de hoogste kwaliteit. Het werkt als volgt:

De AI heeft een tabel, waarbij voor elk mogelijk bord, elke mogelijke zet een score krijgt.
In het begin is de tabel leeg.
Zodra de AI een nieuw bord te zien krijgt, stopt het alle mogelijke zetten in de tabel met score 0.
Als de AI een zet moet kiezen om te spelen, kiest het de zet met de hoogste score. Als er één of meerdere zetten gelijke scores hebben wordt een willekeurige zet gedaan. Alle gedane zetten worden in een lijst bijgehouden.
Als het potje afgelopen is, hoort bij een gewonnen potje score 1 en bij een verloren potje score -1.
Alle gedane zetten krijgen een beloning bij winst en een straf bij verlies.

De leerformule

De leerformule bepaalt hoe de scores voor de gedane zetten wordt aangepast nadat het potje voorbij is. Vanzelfsprekend wordt de score hoger bij winst en lager bij verlies. De berekening gaat als volgt:

nieuwe_score = oude_score * (1 - L) + resultaat * L

Hierbij is L de "leersnelheid". Dit is een getal dat we zelf kunnen kiezen. De leersnelheid zit tussen 0 en 1 in.

Als de leersnelheid gelijk is aan 0, dan doet het resultaat er niet toe en is de nieuwe score altijd gelijk aan de oude score.

Als de leersnelheid gelijk is aan 1, dan doet de oude score er niet toe en is de nieuwe score compleet gelijk aan het resultaat.

De hexapawn AI heeft een leersnelheid van 0,5. Dat betekent dat de nieuwe score steeds een mix is tussen de oude score en het resultaat. Als je met een bepaalde zet steeds wint, zal de score steeds dichter de 1 naderen.

Het spel hexapawn is zo eenvoudig, dat je zelfs met luciferdoosjes een lerende AI kunt bouwen. Zie het filmpje hieronder: